四分位数、百分位数与插值法 - 知识点总结与练习题
定义:将数据分为四等份的三个分位点,分别是:
定义:将数据分为100等份的99个分位点,第\(p\)百分位数(\(P_p\))表示约\(p\%\)的数据小于它,\((100-p)\%\)的数据大于它。
适用场景:当数据以分组频率表呈现时,通过假设组内数据均匀分布,估计中位数、四分位数、百分位数。
关键步骤:
\[ \text{估计值} = \text{组下限} + \frac{\text{目标位置}-\text{前一组累计频率}}{\text{本组频率}} × \text{组宽} \]
题目:20名员工的通勤距离(km):1,3,3,3,4,4,6,7,7,7,9,10,11,11,12,13,14,16,18,23,求中位数和四分位数。
中位数(\(Q_2\)):位置\(\frac{20+1}{2}=10.5\),取第10和11个数据(7和9)的平均值,即\(\frac{7+9}{2}=8\)。
下四分位数(\(Q_1\)):位置\(\frac{20}{4}=5\),取第5和6个数据(4和4)的平均值,即\(4\)。
上四分位数(\(Q_3\)):位置\(\frac{3×20}{4}=15\),取第15和16个数据(12和13)的平均值,即\(\frac{12+13}{2}=12.5\)。
题目:学生每日上网时间分组表如下,估计上四分位数和第10百分位数。
| 上网时间(分钟) | 30-31 | 32-33 | 34-36 | 37-39 |
|---|---|---|---|---|
| 频率 | 2 | 25 | 30 | 13 |
累计频率:2, 27, 57, 70。
a) 上四分位数(\(Q_3\)):位置\(\frac{3×70}{4}=52.5\),落在"34-36"组(累计频率27到57)。
组边界33.5~36.5,组宽3,组内位置\(52.5-27=25.5\)。
插值计算:\(Q_3 = 33.5 + \frac{25.5}{30}×3 = 36.05\)。
b) 第10百分位数(\(P_{10}\)):位置\(\frac{10×70}{100}=7\),落在"32-33"组(累计频率2到27)。
组边界31.5~33.5,组宽2,组内位置\(7-2=5\)。
插值计算:\(P_{10} = 31.5 + \frac{5}{25}×2 = 31.9\)。
珀斯气压数据:16天日平均气压(hPa):1024,1022,1021,1013,1009,1018,1017,1024,1027,1029,1031,1025,1017,1019,1017,1014。
a) 求中位数
b) 求四分位数
答题区域:
学生藏书数量频率表:
| 书本数 | 35 | 36 | 37 | 38 | 39 |
|---|---|---|---|---|---|
| 频率 | 3 | 17 | 29 | 34 | 12 |
a) 求四分位数
b) 解释结果含义
答题区域:
酒店电梯故障次数分组表:
| 故障次数 | 0-1 | 2-3 | 4-5 |
|---|---|---|---|
| 频率 | 18 | 7 | 1 |
a) 用插值法估计中位数
b) 解释计算过程
答题区域:
奶牛体重分组表:
| 体重(kg) | 300-349 | 350-399 | 400-449 | 450-499 | 500-549 |
|---|---|---|---|---|---|
| 频率 | 3 | 6 | 10 | 7 | 5 |
a) 中位数
b) 下四分位数\(Q_1\)
c) 上四分位数\(Q_3\)
d) 解释\(Q_3\)的含义
答题区域:
救援等待时间分组表:
| 等待时间t(分钟) | 20≤t<30 | 30≤t<40 | 40≤t<50 | 50≤t<60 | 60≤t<70 |
|---|---|---|---|---|---|
| 频率 | 6 | 10 | 18 | 13 | 2 |
a) 均值
b) 第65百分位数
c) 验证广告声明"90%客户等待不超过56分钟"
答题区域:
秃鹰翼展分组表:
| 翼展w(m) | 1.0≤w<1.5 | 1.5≤w<2.0 | 2.0≤w<2.5 | 2.5≤w<3.0 | 3.0≤w |
|---|---|---|---|---|---|
| 频率 | 4 | 20 | 37 | 28 | 11 |
a) 第80百分位数
b) 解释为什么无法估计第90百分位数
答题区域:
解答过程:
排序后:1009,1013,1014,1017,1017,1017,1018,1019,1021,1022,1024,1024,1025,1027,1029,1031
a) 中位数:第8、9个数据为1019和1021,中位数\(\frac{1019+1021}{2}=1020\)
b) 四分位数:
• \(Q_1\)位置\(\frac{16}{4}=4\),第4、5个数据为1017和1017,故\(Q_1=1017\)
• \(Q_3\)位置\(\frac{3×16}{4}=12\),第12、13个数据为1024和1025,故\(Q_3=\frac{1024+1025}{2}=1024.5\)
解答过程:
总频数\(n=95\)
a) 四分位数计算:
• \(Q_1\)位置\(\frac{95}{4}=23.75\),向上取整第24个数据,落在"37"组,故\(Q_1=37\)
• \(Q_2\)位置\(\frac{95}{2}=47.5\),向上取整第48个数据,落在"38"组,故\(Q_2=38\)
• \(Q_3\)位置\(\frac{3×95}{4}=71.25\),向上取整第72个数据,落在"38"组,故\(Q_3=38\)
b) 解释:约25%的学生藏书不超过37本,50%不超过38本,75%不超过38本
解答过程:
累计频率:18, 25, 26
a) 中位数位置\(\frac{26}{2}=13\),落在"0-1"组(组边界-0.5~1.5)
插值计算:\(\text{中位数} = -0.5 + \frac{13-0}{18}×2 ≈ 0.944\)
b) 计算过程:假设组内数据均匀分布,通过比例关系估算中位数位置
解答过程:
累计频率:3, 9, 19, 26, 31
a) 中位数:位置\(\frac{31}{2}=15.5\),落在"400-449"组(组边界399.5~449.5)
插值计算:\(399.5 + \frac{15.5-9}{10}×50 = 432\)
b) 下四分位数\(Q_1\):位置\(\frac{31}{4}=7.75\),落在"350-399"组(组边界349.5~399.5)
插值计算:\(349.5 + \frac{7.75-3}{6}×50 ≈ 389.08\)
c) 上四分位数\(Q_3\):位置\(\frac{3×31}{4}=23.25\),落在"450-499"组(组边界449.5~499.5)
插值计算:\(449.5 + \frac{23.25-19}{7}×50 ≈ 479.86\)
d) 解释:约75%的奶牛体重不超过479.86kg,25%的奶牛体重超过它
解答过程:
累计频率:6, 16, 34, 47, 49
a) 均值:组中值25,35,45,55,65,均值\(\frac{25×6+35×10+45×18+55×13+65×2}{49}≈43.98\)
b) 第65百分位数:位置\(\frac{65×49}{100}=31.85\),落在"40≤t<50"组(组边界39.5~50.5)
插值计算:\(39.5 + \frac{31.85-16}{18}×10≈48.31\)
c) 验证广告声明:计算第90百分位数,位置\(\frac{90×49}{100}=44.1\),落在"50≤t<60"组(组边界49.5~60.5)
插值计算:\(49.5 + \frac{44.1-34}{13}×10≈57.27\)
即仅10%客户等待超过57.27分钟,而声明中是56分钟,故声明不成立
解答过程:
累计频率:4, 24, 61, 89, 100
a) 第80百分位数:位置\(80\),落在"2.5≤w<3.0"组(组边界2.5~3.0)
插值计算:\(2.5 + \frac{80-61}{28}×0.5≈2.839\)
解释:80%的秃鹰翼展不超过2.839m
b) 无法估计第90百分位数的原因:最后一组"3.0≤w"无明确上边界,无法通过插值法准确计算